商务统计学基础 | 第1章:不确定性的数学表达:t-分布
上一节,我们学习了正态分布以及它的概率密度函数。通过学习,我们发现正态分布是一个特别有用的概率分布,它具有很好的对称性,并且出现极值的概率很低。但是,我们的探讨也留下了一个遗憾,那就是当我们用正态分布去拟合上证综指实际数据的时候,似乎效果不太好。正态分布低估了上证综指日度收益率出现在对称轴附近的可能性,也低估了出现极端收益率的可能性。这就产生了一个自然的问题:有没有别的分布能够提供更好的拟合?这是本节要探讨的问题。
首先注意一点,这个大千世界如此丰富多彩,涉及到的不确定性也一定是多种多样的。当在数学上做了高度的抽象汇总后,你仍然会发现,不同的不确定性有着不同的确定性的规律,而这些关于不确定性的确定性规律,就表达在概率密度函数上。上一节图1.3.4中表达出来的就是这个规律。为此,我们需要寻找正态分布以外的分布,希望能够对上证综指的日度收益率(或者更加广泛的金融资产收益率数据)做出很好的逼近。请问:哪种分布可以呢?如果存在这样的分布,我们希望该分布仍然具有很好的对称性,而且能够容忍更大的出现极值的可能性。值得一提的是,有的学者认为金融数据的非对称性很重要,如果是这样,那么理想的分布就要容忍不对称性。但是这里我们先简单地假设寻找的理想分布是对称的。那么什么样的分布能满足我们的需求呢?答:t-分布。什么是t-分布呢?在回答这个问题之前,先小小地卖一个关子,我们先看看t-分布的实际效果如何。图1.4.1再次呈现了上证综指的直方图,以及用复杂的非参数方法估计的概率密度曲线(红色)、基于正态分布估计的概率密度曲线(蓝色),还有一个基于5个自由度的t-分布估计的概率密度曲线(绿色)。虽然绿色曲线对红色曲线的逼近仍然不尽完美,但是已经有很大的改进,达到了很好的逼近精度,对于很多实际工作可能已经能够满足需求了。那么问题来了,如此有趣的t-分布是一个什么样的分布呢?
在正式学习之前先讲述一件关于t-分布名字来源的趣事。t-分布是由英国的化学家、数学家与统计学家威廉-戈塞特(William Gosset)发现的,分布的全称是学生t-分布(Student's t-distribution)。这个名字是不是很奇怪?为什么t-分布不像高斯分布一样以它的发现者的名字来命名呢?这是因为戈塞特当时在都柏林的一家酿酒厂工作,在进行大量实验的过程中,他怀疑存在一个不同于正态分布的未知分布。经过研究,他发现了t-分布,但因为酿酒厂不允许职工发表研究成果,他只好以笔名“Student”发布,这便是“学生”的由来。而至于为什么是“t”分布,这是因为该分布的命名者——另一位伟大的统计学家费希尔使用了字母t来代表服从该分布的随机变量。
t-分布对上证综指收益率数据的逼近精度比正态分布更令人满意,这与它的数学性质有关。这说明它的数学定义与正态分布一定是不一样的。那么,t-分布在数学上是如何定义的呢?它的概率密度函数表达如下:
上式中 是一个特殊的函数——伽马函数,在此我们不需要深究它的数学表达式。虽然t-分布的概率密度函数非常复杂,但仔细观察后可以发现,它只有唯一的参数 。在上一节中我们知道了正态分布的参数是 和 ,也就是说,只要确定了 和 ,就可以确定一个唯一的正态分布的概率密度函数。同样地,只需要确定 ,就可以确定一个唯一的t-分布的概率密度函数。我们把 称为自由度,描述一个t-分布时会说“自由度为 的t-分布”。请注意,从理论上讲,t-分布的自由度不一定非要是正整数,事实上任何正数都是可以的。自由度起到什么作用呢?我们不妨观察一下不同自由度的t-分布的概率密度曲线(图1.4.2)。不难发现,同标准正态分布一样,t-分布也是关于 对称的。 时,t-分布的概率密度曲线(红色线)和标准正态分布(黑色线)有较大的差距,t-分布的尾部概率比标准正态分布更大,峰值比标准正态分布更低。而随着自由度 的增大,t-分布的尾部概率变得越来越小,概率密度曲线也越接近标准正态分布的曲线。当 时,t-分布曲线已经十分接近标准正态分布了。事实上,当 趋于+∞时,t-分布趋于标准正态分布。这里需要强调一下,用峰度估计t-分布的自由度是一个非常简单而且有效的方法,但并不是一个最好的方法。用峰度估计t-分布自由度的缺点是很明显的,因为峰度的定义涉及到四阶矩,如果四阶矩不存在,那么峰度本身就是不存在的。因此,用峰度去估算自由度的一个前提是:目标t-分布的自由度应该大于4。但是现实生活中,当人们真的用峰度去估算自由度的时候,有可能估算出来的自由度小于4。显然,这样估算出来的自由度是不可信的。一个更好的估算自由度的方法应该是极大似然估计。作为一门入门的统计学课程,我们对此不再深究,但特此声明,提请各位读者朋友留心注意。另一方面,我们对中国股票数据的实证分析也表明,绝大多数情况下,基于峰度估算出的自由度是大于4的,所产生的t-分布对实际数据分布的拟合情况也是令人满意的,如图1.4.3所示。
接下来,我们用一个更大规模的实际案例来深入了解t-分布,并展示基于峰度方法估计t-分布自由度所呈现的实际效果,从而对该估计方法的优缺点有一个更加直观的认识。我们将使用2019和2020年上交所的1422只主板A股的日度收益率数据。用每支股票每天的收益率减去对应日期的上证综指收益率,便是该股票在这一天的日度超额收益率。接下来,我们用t-分布拟合这些股票的日度超额收益率,进行探索和发现。
首先,我们认为每只股票的日度超额收益率的分布是不一样的;其次,对于单只股票,它在不同年份的收益率分布也是不一样的。因此,对每只股票,我们分别去计算它在2019年和2020年的日度超额收益率的峰度,然后用峰度去估计t-分布的自由度。这个自由度反映了股票日度超额收益率的厚尾特征,自由度越小,意味着峰度越大,也就是尾部越厚。如前所述,用峰度估计t-分布自由度的前提条件是真实的自由度必须大于4。但是对于实际数据而言,真实的t-分布我们并不知道,因此只能估计。无论真实情况如何,如果估计出的自由度小于4,这样的结果一定是不可靠的。请注意,并不是说对于这样的数据我们就无法估计其自由度,而是说基于峰度的简单估计方法不奏效了。因此这部分结果必须舍弃。当然,这也绝不表示自由度估计值大于4就一定意味着真实的自由度大于4。从理论上来说,我们不能排除这种可能性:真实的自由度是小于4的,但是在各种机缘巧合下,自由度的估计量却是大于4的。对这个问题的深入探讨超出了本书的范畴,我们不再详细展开,但是提请读者注意接下来呈献给大家的案例分析中的理论缺陷。具体而言,在我们考察的1422只股票中,有20只股票,对它们基于峰度方法估计出的自由度是小于4的(或者在2019年,或者在2020年),只能舍弃。因此,我们着重对剩下的1402只股票进行描述性统计分析。首先,以2019年的数据为例,我们对这1402只股票按估算出的t-分布的自由度进行分组,图1.4.4展示了各个组的股票数量占比情况。可以看到,所有股票的自由度变化范围在4~141之间,这是一个广阔的范围。其中,近70%的股票其自由度在4到5之间,并且随着自由度增大,股票占比递减。也就是说,大部分的股票收益率适合用低自由度的t-分布来刻画,具有厚尾特征。这也佐证了前面的观点,即相比于正态分布,具有厚尾性质的t-分布对投资人来说是更好的选择。
我们如此关心厚尾特征,那么它与收益率的水平和风险大小会有什么关系呢?为研究这个问题,我们可以根据自由度对股票分组,并绘制收益率的分组箱线图。具体做法如下:首先,根据2019年每只股票拟合的t-分布的自由度,从小到大将股票等分为10组,依次编号为1,2,…,10;其次,计算每只股票在2019年的平均日度超额收益率;最后,根据分好的10组,绘制每组股票在2019年的平均日度超额收益率的箱线图,在同一纵坐标轴上进行对比,如图1.4.5所示。根据该图可以发现,自由度越大的组,离群点越少,也就是出现极端观测的概率越小。但是,自由度越大的组,箱体的厚度却越大,也就是正常观测所呈现出来的波动性越大,伴随而来的是平均收益率(中位数计)更高。这个结果既在意料之中,又在意料之外。意料之中的是,经典金融投资理论告诉我们,高风险高回报。因此,箱线图中呈现出来的波动性越大,风险越大,因此中位数所表达出来的平均收益率越大。意料之外的是,估算出来的t-分布自由度越小,出现极值的风险越大,但是正常观测所呈现出来的变异性却更小。这似乎在告诉我们,极值风险与以波动性为核心的普通风险有所不同,而且似乎没有明显表达在以中位数测量的平均收益率上。
这仅仅是2019年的情况。我们还想进一步知道,有没有可能通过2019年的收益率去预测2020年的收益率呢?股票预测虽然很难,但这似乎是一个永恒的话题。我们这里做一个简单的、基于收益率分布厚尾特征的尝试。首先我们可以从厚尾特征的持续性入手:那些在2019年收益率呈现厚尾特征的股票,在2020年会继续呈现厚尾特征吗?为此,我们可以以每只股票2019年数据拟合的t-分布的自由度为横轴,2020年数据拟合的t-分布的自由度为纵轴,画出散点图(为了更好地呈现,这里取了自由度对数),如图1.4.6。该图告诉我们的答案是:不一定,但从整体趋势上看,二者存在一定正相关性,但是不强。
接下来可以进一步考察2019年股票的厚尾特征对2020年股票的收益率分布会有哪些影响,比如风险大小如何?收益率水平如何?首先,与上文相同,仍然根据2019年每只股票拟合的t-分布的自由度,从小到大将股票分为10组,依次编号为1,2,…,10;其次,计算每只股票在2020年的平均日度超额收益率;最后,根据分好的10组,绘制每组股票2020年的平均日度超额收益率的箱线图,在同一纵坐标轴上进行对比,如图1.4.7。遗憾的是,从图中并不能看出什么规律,没有可预期的结论。看来我们还不能证明可以根据历史数据预测未来的收益情况,这与资本市场的有效性假说保持基本一致。也就是说,基于资本市场公开的数据,可能很难获得超额收益率。当然,必须指出的是,本文这里所呈现的案例,实在是非常初级和肤浅的,只考虑了股价的厚尾特征,而且厚尾特征是以t-分布的自由度所刻画的。显然,一个更加严谨的研究应该考虑更多的因素和因子,哪怕是考虑厚尾特征,也不是必须要用t-分布的自由度来刻画。因此,非常欢迎读者用本案例所提供的数据,做一些更深入的探索性研究,看看股票收益率的极值风险和超额收益率之间到底有没有进一步的关系。
最后总结一下。我们在本节学习了t-分布的定义,推导了t-分布各阶矩的主要性质,并利用t-分布对大规模实际案例进行了分析。想必你对t-分布已经有了较为深刻的了解,也对它在实际应用中的功能和效果有了体会。现在,让我们来梳理一下已经学习的两种连续分布——正态分布和t-分布,它们之间互有区别而又相互联系。区别是,两种分布的概率密度函数不同,自然地,数学性质也不同。其中非常明显的一点是,t-分布的峰度比正态分布大,尾部比正态分布厚,这称为厚尾性质。它们之间又有着千丝万缕的联系,t-分布的自由度越大,就越接近正态分布,自由度趋于+∞时,t-分布趋于正态分布。从两种分布的概率密度图来看,它们还有一个直观而显著的共同点——都是对称分布。那么,世间所有分布都对称吗?是否还存在不对称的分布呢?这就引出了我们下一讲的主题:指数分布。指数分布是一个重要的、非对称的连续分布。它的故事是什么?理论性质如何?有什么实际应用场景?请见下一讲的精彩内容。
- END -京东购书
当当购书
往期推荐